Národní úložiště šedé literatury Nalezeno 2 záznamů.  Hledání trvalo 0.03 vteřin. 
Apache Hadoop jako analytická platforma
Brotánek, Jan ; Novotný, Ota (vedoucí práce) ; Kerol, Valeria (oponent)
Diplomová práce se zabývá použitím platformy Hadoop při zpracování velkého objemu dat a její integrací do stávající architektury datového skladu. V teoretické části jsou popsány vlastnosti Big Data, charakteristiky jejich metod a výpočetních modelů. Podrobně je popsán framework Hadoop, jeho komponenty a distribuce, v níž jsou dodávány. Jsou popsány komponenty frameworku, které umožňují použití frameworku Hadoop a přístup do clusteru uživatelům, vývojářům a analytikům. V praktické části práce je realizována případová studie ELT procesu dávkové extrakce dat nástrojem Sqoop ze stávajícího datového skladu na platformě Oracle, jejich transformace v relačních strukturách komponenty Hive a následné dohrání dat zpět do datového skladu. Pozornost je věnována způsobu uložení dat, jejich kompresi a souborovému formátu a rychlosti vykonání dotazů nad nimi. V průběhu procesu jsou data porovnávána vůči zdroji a tím zajištěna jejich kvalita. Část praktické práce je věnována problematice tokových dat. Jejich ukládání a zpracování je demonstrováno v nástrojích Flume a Pig Cílem práce je přesunutí části dat a výpočtů nad nimi realizovaných ze stávajícího datového skladu do prostředí Hadoop. Za tímto účelem byl navržen proces integrace stávajícího datového skladu s komponentami distribuce Hortonworks Data Platform.
Gradient Boosting Machine and Artificial Neural Networks in R and H2O
Sabo, Juraj ; Bašta, Milan (vedoucí práce) ; Plašil, Miroslav (oponent)
Neuronové sítě jsou jedním z nejvíce fascinujících algoritmů strojového učení. Mají za sebou však velmi bouřlivý vývoj. Neuronové sítě byly dlouho považovány za algoritmus, který je velmi nespolehlivý a výpočetně náročný. Dnes již víme, že moderní neuronové sítě mohou být úspěšně aplikovány v mnoha úlohách, i když jejich hlavní nevýhoda, tedy značná výpočetní náročnost, stále přetrvává. Statistické modely založené na technice boosting, jsou považovány za jednu z nejpřevratnějších myšlenek na poli algoritmů strojového učení. Tyto modely jsou založeny kombinaci několika slabých modelů, které pak dohromady tvoří jeden silný model. Tato práce se zabývá srovnáním těchto dvou modelů na třech reálných případových studiích. První případová studie se zabývá modelováním pravděpodobnosti loupeže v ulicích města Chicago, druhá případová studie je klasickým příkladem modelování pravděpodobnosti, že zákazník telekomunikační společnosti vypoví smlouvu a poslední případová studie je aplikací počítačového vidění. Cílem této práce je také představení open-source platformy pro strojové učení H2O. H2O obsahuje mimo jiné rozhraní pro R a dokáže běžet samostatně, nebo na Hadoop clusteru. Práce také obsahuje úvod do open-source softwarové knihovny pro zpracování velkých dat Apache Hadoop. Konkrétně do open-source distribuce Hortonworks Data Platform.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.